iT邦幫忙

2024 iThome 鐵人賽

DAY 16
0
AI/ ML & Data

【AI筆記】30天從論文入門到 Pytorch 實戰系列 第 16

【AI筆記】30天從論文入門到 Pytorch 實戰:T2I Adapter的工作原理 Day 15

  • 分享至 

  • xImage
  •  

Paper| Code | 中文Note

T2I-Adapter

介紹

與前述Control-Net/Composer的出發點一致的是,希望通過更多,更細粒度的控制條件

介紹

  • 內部知識對齊:T2I-Adapter 通過學習將外部控制信號與 T2I 模型的內部知識對齊,提供更精確的生成控制。
  • 多尺度特徵提取:Adapter使用多尺度特徵提取塊來處理不同解析度的特徵,從而實現更精細的控制。
  • 非均勻時間步長採樣:在訓練過程中,使用非均勻時間步長採樣策略來增強Adapter的指導能力。
    這些特點使得 T2I-Adapter 在不影響原有模型生成能力的情況下,提供了更高的控制精度和靈活性。

架構

它由4個特徵提取塊和3 個下採樣塊組成,

  • 改變原始條件輸入的特徵分辨率,將其降採樣到64 (pixel unshuffle operation )。
  • Pixel-unshuffle 是一種操作,具體來說,它將影像的pixel不要打亂位置關係,以便在較低解析度下保留更多的顏色和結構資訊。這種技術在影像生成和處理中非常有用,特別是在需要保留影像細節的情況下。

    可能是怕在做 Conv 的時候位置關係會亂掉

  • 之後基於不同的特徵維度,對原始的stable diffusion model進行微調

    這邊需要注意的是,不同的特徵維度要接入到對應的網絡層中

  • 輸出的4個features會被以加法的方式,加回去Frozen SD encoder layer 中各別4個layer的feature,就可以達到控制SD的生成效果。

總結

T2I-Adapter

  • 可以組合多個Adapter
  • 在多個Adapter控制的情況下,指導特徵的組合需要手動調整,否則可能不會達到預期的效果
  • 雖然Adapter本身輕量 77 M,但仍需要一定的訓練時間和資源。

我認為T2I-Adapter與ControlNet最大的不同點在於T2I-Adapter特徵輸入的地方在Encoder,而ControlNet在Decoder,我在其他篇論文中有看到對於特徵輸入的影響,好像都是在Decoder較多,但T2I-Adapter有實驗過才選擇在Encoder。
比較Feats
不過目前用FID評估指標去評估生成品質還是很不穩定,他無法準確的代表人類評估的品質。

常有人把它和ControlNet進行比較,其實生成的品質也可以明顯看得出來,ControlNet帶來的細節都比Adapter好太多,可能ControlNet直接使用SD的架構去跟Frozen SD進行融合帶來的效果會比自己設計一個全新的Adapter來得好,但也可能因為Adapter的複雜度比ControlNet來說低很多才導致特徵提取得不是很好。個人認為有利有弊,看個人想要選擇怎樣的效能/結果。

比較

這是整理過後的比較表,3種模型的差異
比較

Composer因為沒有開源,所以不知道實際狀況,論文中也沒有提到相關資訊。


上一篇
【AI筆記】30天從論文入門到 Pytorch 實戰:ControlNet 論文閱讀 Day 14
下一篇
【AI筆記】30天從論文入門到 Pytorch 實戰:如何重現開源AI模型訓練 Day 16
系列文
【AI筆記】30天從論文入門到 Pytorch 實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言